回归分析函数

回归模型不仅是数据分析和预测的强大工具,也是实现自动化监控和异常检测的有效手段。在复杂系统管理中,结合适当的阈值设置和报警机制,可以大大提高问题发现的及时性和准确性,进而保障系统的稳定运行。本文介绍回归分析函数的基本语法和示例。

背景信息

公式:y = a1 * x1 + a2 * x2 + b + noise

参数

说明

x1

日志服务采集的一列数据。

x2

日志服务采集的一列数据。

noise

一个随机变量。

y

根据公式计算的结果。

根据用户提供的x1x2y和权重数据,找出公式中的a1a2b(三个系数),然后计算出结果。

  • 本文介绍回归分析函数示例的日志包含六个字段索引。更多信息,请参见创建索引

    image

  • 日志样例如下:

    {"group_id":"A","observation_id":"S001","time_offset":"0","x1":"1","x2":"5","y":"23.91700530543459"}
    {"group_id":"A","observation_id":"S002","time_offset":"-1","x1":"2","x2":"2","y":"6.931858878794941"}
    {"group_id":"A","observation_id":"S003","time_offset":"-2","x1":"3","x2":"8","y":"16.17603801639615"}
    {"group_id":"A","observation_id":"S004","time_offset":"-3","x1":"4","x2":"6","y":"24.97127625789946"}
    {"group_id":"A","observation_id":"S005","time_offset":"-4","x1":"5","x2":"2","y":"11.933292736756384"}
    {"group_id":"A","observation_id":"S006","time_offset":"-5","x1":"6","x2":"8","y":"21.034262717019995"}
    {"group_id":"A","observation_id":"S007","time_offset":"-6","x1":"7","x2":"1","y":"25.966770392099868"}
    {"group_id":"A","observation_id":"S008","time_offset":"-7","x1":"8","x2":"7","y":"16.93019469603219"}
    {"group_id":"A","observation_id":"S009","time_offset":"-8","x1":"9","x2":"2","y":"19.967258015889847"}
    {"group_id":"A","observation_id":"S010","time_offset":"-9","x1":"10","x2":"3","y":"27.0277513207651"}

回归分析函数列表

函数名称

语法

说明

返回值类型

linear_model函数

  • linear_model(array(array(double)) x_samples, array(double) y_samples)

  • linear_model(array(array(double)) x_samples, array(double) y_samples, array(double) weights)

该函数为标量函数,通过array_agg实现聚合功能,输入为回归模型的样本及可选的样本权重,输出为识别出的回归模型,模型结果采用JSON格式返回。

varchar

linear_model_predict函数

linear_model_predict(varchar model_in_json, array(double) x_sample)

通过识别出的模型及输入变量样本进行预测。

double

recent_regression函数

recent_regression(double y, array(double) x_array, double cur_sample_time_period, double cur_batch_begin_period, double cur_batch_end_period, double time_unit, double damping_weight_per_time_unit)

基于最新收集的数据,在线更新模型参数与状态变量。模型采用样本年龄作为权重调整依据,使样本的重要性随年龄增长呈指数衰减。

varchar

merge_recent_regression函数

merge_recent_regression(varchar model_1_json, varchar model_2_json)

将前后两个阶段识别出的模型参数和状态变量进行合并,其结果与将两批数据合并后重新识别出的模型参数相同。

varchar

recent_regression_predict函数

recent_regression_predict(varchar model_json, array(double) x_sample)

使用自适应回归模型进行预测。

double

带样本权重的回归模型

支持为回归模型指定样本权重,支持与时间或目标变量相关的权重设置。通过随样本年龄减小的权重,模型更关注最新数据,适应系统变化;使用目标变量绝对值倒数作为权重,则使回归模型最小化相对误差。

linear_model函数

该函数为标量函数,通过array_agg函数实现聚合,输入为回归模型的样本及可选的样本权重,输出为JSON格式的回归模型。

varchar linear_model(array(array(double)) x_samples, array(double) y_samples)

varchar linear_model(array(array(double)) x_samples, array(double) y_samples, array(double) weights)

参数

说明

x_samples

由多个输入变量样本组成的数据矩阵结构,其中每一行代表一次针对这些输入变量的观测。

y_samples

由输出变量的样本构成的向量。

weights

可选参数,如果未指定则赋予相同的权重。

使用示例

  • 查询和分析语句

     * |   select group_id,
            linear_model(
                array_agg(array[x1, x2]),
                array_agg(y)
            ) as model
        from log
        group by group_id
  • 返回结果

    返回值中coefficients字段表示的是通过数据识别出来的线性回归的系数。

    预测时此函数作为linear_model_predict函数的入参。

    group_id

    model

    A

    {
      "coefficients": [
        0.8350068912618618,
        -0.741283054726383,
        19.17405856472653
      ],
      "isBuilt": true,
      "isBuildSuccessful": true,
      "sampleCount": 10,
      "xCount": 2,
      "wSum": 10.0,
      "ySumSquare": 3930.0,
      "ySum": 188.0,
      "xXSumProducts": [
        [
          385.0,
          367.0
        ],
        [
          367.0,
          475.0
        ]
      ],
      "xYSumProducts": [
        1104.0,
        1239.0
      ],
      "xSums": [
        55.0,
        67.0
      ],
      "xMeans": [
        5.5,
        6.7
      ],
      "xStdDevs": [
        2.8722813232690143,
        1.6155494421403511
      ],
      "xVariances": [
        8.25,
        2.6099999999999994
      ],
      "yMean": 18.8,
      "yStdDev": 6.289674077406551,
      "yVariance": 39.559999999999945,
      "xCorrelations": [
        [
          1.0,
          -0.03232540919176149
        ],
        [
          -0.03232540919176149,
          1.0
        ]
      ],
      "xYCorrelations": [
        0.3874743195572169,
        -0.202730375711539
      ],
      "regularized": true,
      "regularWeight": 1.0E-6
    }

linear_model_predict函数

通过识别出的模型及输入变量样本进行预测。

double linear_model_predict(varchar model_in_json, array(double) x_sample)

参数

说明

model_in_json

linear_model函数识别出来的模型结果。

x_sample

新的输入变量。

使用示例

  • 查询和分析语句

    * | with group_models as
    (
        select group_id,
            linear_model(
                array_agg(array[x1, x2]),
                array_agg(y)
            ) as model
        from log
        group by group_id
    )
    
    select d.group_id,
        d.y,
        linear_model_predict(m.model, array[x1, x2]) as predicted_y
    from group_models as m
        join log as d
        on m.group_id = d.group_id
  • 返回结果

    predicted_y是由输入变量计算出来的预测值。

    group_id

    observation_id

    y

    predicted_y

    A

    S001

    23.91700530543459

    15.68867910570816

    A

    S002

    6.931858878794941

    15.352330987812993

    ...

    ...

    ...

在线自适应回归算法

一种在线增量算法,该算法在接收新数据时,仅需使用新数据对模型进行增量式更新,相较于批量算法处理大量数据的需求,具有高效计算和低成本存储的优势。此外,该算法适用于持续性分析(Continuous Profiling),因每次处理后即可丢弃样本数据,故展现出更高的实用性和便捷性。

在线自适应回归算法中的自适应指的是在线算法在增量计算统计特征和模型的时候,能够自动地对旧的历史样本对统计特征的影响按照指数衰退,让最近的样本保持较高的权重,跟上系统环境的变化。

recent_regression函数

根据最近采集到的一批数据,在线更新模型参数和状态变量。模型会根据样本的年龄让样本的重要性进行指数衰退。

varchar recent_regression(double y, array(double) x_array, double sample_time, double cur_batch_begin_period, double cur_batch_end_period, double time_unit, double unit_damping_weight)

参数

说明

y

预测目标变量的列数据,因变量的样本。

x_array

由自变量(输入变量)组成的样本数组。

sample_time

该样本行对应的数据时间点是什么,时间需要转换成为数字。

cur_batch_begin_period

当前这一批用于训练模型的数据的时间段的起始时刻。

cur_batch_end_period

当前这一批用于训练模型的数据的时间段的终止时刻,数据的时间段是[batch_window_begin_time, batch_window_end_time]闭区间。

time_unit

单位时间间隔。时间尺度和sample_time是一样的。

unit_damping_weight

指数衰退基数。样本权重随时间变化的关系,即每隔一个特定的时间单位(time_unit),样本的权重会减少一个固定值(unit_damping_weight)。

让样本权重按照一定的半衰期以指数衰减,例如,最新时刻的数据的权重为1,一天前的数据的权重降为1/2,两天前的数据的权重降到1/4,三天前的权重降到1/8,以此类推。

当前变量使用公式计算:

unit_damping_weight = 2 ^ -(样本时间间隔/半衰期)

使用示例

  • 查询和分析语句

      * | select group_id,
            recent_regression(
              y, array[x1, x2, 1.0], -- 输出输入变量样本
              time_offset, -- 样本的时间点
              -4,          -- 当前批次数据样本的起始时间
              0,           -- 当前批次数据样本的终止时间
              1,           -- 单位时间间隔
              0.999        -- 指数衰退基数
            ) as reg_model
        from log
        where time_offset >= -4 and time_offset <= 0
        group by group_id
  • 返回结果

    返回值中coefficients字段表示的是通过数据识别出来的线性回归的系数。

    预测时此函数作为recent_regression_predict函数的入参。

    group_id

    reg_model

    A

    {
      "sampleCount": 5,
      "xCount": 3,
      "timeUnit": 1.0,
      "beginTimePeriod": -4.0,
      "endTimePeriod": 0.0,
      "unitDampingWeight": 0.999,
      "wSum": 4.990009995001,
      "ySumSquare": 1644.6974283836598,
      "ySum": 83.76770287757991,
      "xXSumSquares": [
        [
          54.830206884025,
          70.82220388003,
          14.960044976005001
        ],
        [
          70.82220388003,
          173.70327985603598,
          25.955043976006
        ],
        [
          14.960044976005001,
          25.955043976006,
          4.990009995001
        ]
      ],
      "xYSumProducts": [
        245.21187055562675,
        402.5070758759011,
        83.76770287757991
      ],
      "xSums": [
        14.960044976005001,
        25.955043976006,
        4.990009995001
      ],
      "xMeans": [
        2.997999000200801,
        5.201401199999158,
        1.0
      ],
      "xStdDevs": [
        1.4142126422148122,
        2.7848935986573244,
        0.0
      ],
      "xVariances": [
        1.9999973974002003,
        7.755632355842543,
        0.0
      ],
      "yMean": 16.78708118049834,
      "yStdDev": 6.913170639821401,
      "yVariance": 47.79192829528864,
      "xCorrelations": [
        [
          1.0,
          -0.35572473794248516,
          0.0
        ],
        [
          -0.35572473794248516,
          1.0,
          0.0
        ],
        [
          0.0,
          0.0,
          1.0
        ]
      ],
      "xYCorrelations": [
        -0.12142097167729436,
        -0.34560624507434407,
        0.0
      ],
      "coefficients": [
        -1.3675797278475395,
        -1.104969989478544,
        0.0,
        26.634476066516903
      ],
      "isBuilt": true,
      "isBuildSuccessful": true
    }

merge_recent_regression函数

将前后两个阶段识别出的模型参数和状态变量进行合并,其结果与将两批数据合并后重新识别出的模型参数相同。

varchar merge_recent_regression(varchar model_1_json, varchar model_2_json)

参数

说明

model_1_json

recent_regression函数的返回值。

model_2_json

recent_regression函数的返回值。

使用示例

  • 查询和分析语句

    * | with model1 as
    (
        select group_id,
            recent_regression(
              y, array[x1, x2, 1.0], -- 输出输入变量样本
              time_offset, -- 样本的时间点
              -4,          -- 当前批次数据样本的起始时间
              0,           -- 当前批次数据样本的终止时间
              1,           -- 单位时间间隔
              0.999        -- 指数衰退基数
            ) as reg_model
        from log
        where time_offset >= -4 and time_offset <= 0
        group by group_id
    ),
    
    model2 as
    (
        select group_id,
            recent_regression(y, array[x1, x2, 1.0], time_offset, -9, -5, 1, 0.999) as reg_model
        from log
        where time_offset >= -9 and time_offset <= -5
        group by group_id
    )
    
    select m1.group_id,
        merge_recent_regression(m1.reg_model, m2.reg_model) as reg_model
    from model1 as m1
        join model2 as m2
            on m1.group_id = m2.group_id
  • 返回结果

    返回值中coefficients字段表示的是通过数据识别出来的线性回归的系数。

    预测时此函数作为recent_regression_predict函数的入参。

    group_id

    reg_model

    A

    {
      "sampleCount": 10,
      "xCount": 3,
      "timeUnit": 1.0,
      "beginTimePeriod": -9.0,
      "endTimePeriod": 0.0,
      "unitDampingWeight": 0.999,
      "wSum": 9.955119790251791,
      "ySumSquare": 4159.2626495224,
      "ySum": 193.9139516502596,
      "xXSumSquares": [
        [
          382.3684973894312,
          268.46629177582946,
          54.67098815430803
        ],
        [
          268.46629177582946,
          358.44803436913094,
          51.78255011892536
        ],
        [
          54.67098815430803,
          51.78255011892536,
          9.955119790251791
        ]
      ],
      "xYSumProducts": [
        1132.090921413269,
        919.4071924317548,
        193.9139516502596
      ],
      "xSums": [
        54.67098815430803,
        51.78255011892536,
        9.955119790251791
      ],
      "xMeans": [
        5.4917458861562585,
        5.201599901352432,
        1.0
      ],
      "xStdDevs": [
        2.8722740635191735,
        2.991614845817865,
        0.0
      ],
      "xVariances": [
        8.249958295964944,
        8.949759385717847,
        0.0
      ],
      "yMean": 19.478816502051856,
      "yStdDev": 6.1949232381571,
      "yVariance": 38.37707392665885,
      "xCorrelations": [
        [
          1.0,
          -0.1859947674356197,
          0.0
        ],
        [
          -0.1859947674356197,
          1.0,
          0.0
        ],
        [
          0.0,
          0.0,
          1.0
        ]
      ],
      "xYCorrelations": [
        0.3791693893070564,
        -0.4837793996174176,
        0.0
      ],
      "coefficients": [
        0.6460732812209116,
        -0.8864195347835274,
        0.0,
        20.541545982438304
      ],
      "isBuilt": true,
      "isBuildSuccessful": true
    }

recent_regression_predict函数

使用自适应回归模型进行预测。

double recent_regression_predict(varchar model_json, array(double) x_sample)

参数

说明

model_json

recent_regression函数merge_recent_regression函数的返回值。

x_sample

用于计算预测值的输入的数据样本。

使用示例

  • 查询和分析语句

    * | with model1 as
    (
        select group_id,
            recent_regression(
              y, array[x1, x2, 1.0], -- 输出输入变量样本
              time_offset, -- 样本的时间点
              -4,          -- 当前批次数据样本的起始时间
              0,           -- 当前批次数据样本的终止时间
              1,           -- 单位时间间隔
              0.999        -- 指数衰退基数
            ) as reg_model
        from log
        where time_offset >= -4 and time_offset <= 0
        group by group_id
    ),
    
    model2 as
    (
        select group_id,
            recent_regression(y, array[x1, x2, 1.0], time_offset, -9, -5, 1, 0.999) as reg_model
        from log
        where time_offset >= -9 and time_offset <= -5
        group by group_id
    ),
    
    model as
    (
        select m1.group_id,
            merge_recent_regression(m1.reg_model, m2.reg_model) as reg_model
        from model1 as m1
            join model2 as m2
                on m1.group_id = m2.group_id
    ),
    
    new_data as
    (
        select 'A' as group_id, 1 as obs_id, 3.0 as x1, 5.0 as x2, 1.0 as x3 union all
        select 'A' as group_id, 2 as obs_id, 7.0 as x1, 8.0 as x2, 1.0 as x3
    )
    
    select m.group_id,
        n.obs_id,
        recent_regression_predict(m.reg_model, array[n.x1, n.x2, 1.0]) as predicted_value
    from model as m
        join new_data as n
            on m.group_id = n.group_id
    order by m.group_id, n.obs_id
  • 返回结果

    predicted_value字段是预测值。

    group_id

    obs_id

    predicted_value

    A

    1

    17.489274877305804

    A

    2

    22.3233353394362